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摘要 随 着 高 性 能 计算 系统 规模 的 不 断 扩大 ， 节 点 失效 愈加 频 发 。 传 统 的 容错 技术 大 都 基于 检查 点 


(checkpoint) 方式 。 但 是 ， 检 查 点 技术 的 开销 随 着 系统 规模 的 扩大 而 不 断 增加 ， 在 百 亿 亿 次 (Exaflops) 


规模 下 其 容错 效率 难以 满足 系统 需求 。 算 法 失效 恢复 技术 相 比 检查 点 方式 具有 更 高 的 效率 。 然 而 ， 该 技术 


依然 基于 停 等 模式 。 对 于 大 规模 系统 ， 停 等 模式 在 很 大 程度 上 会 影响 程序 的 并 行 效 率 。 本 文 提出 了 一 种 非 
停 等 的 算法 级 容错 策略 一 一 热 蔡 换 策 略 。 在 程序 运行 过 程 中 若 发 生 节 点 失效 ， 不 用 停 等 恢复 失效 节点 上 的 
数据 ， 而 用 元 余 节 点 蔡 换 失效 节点 ， 使 计算 能 继续 进行 。 最 终 的 正确 结果 可 以 通过 一 个 线性 变换 求 出 。 为 
了 论证 方案 的 有 效 性 , 我 们 结合 MPICH 的 容错 特性 实现 了 容错 的 High Performance Linpack (HPL)， 并 评估 
了 方案 的 性 能 。 实 验 结果 表明 ， 即 使 在 小 规模 下 ， 我 们 的 方案 的 性 能 也 明显 优 于 算法 失效 恢复 技术 。 


关键 词 高 性 能 计算 ; 检查 点 ， 算 法 容错 ;Exaflops 


1.1 容错 技术 研究 的 意义 


随 着 高 性 能 计算 机 系统 计算 能 力 的 不 断 增 加 , 系统 的 规模 也 随时 间 呈 指数 
新 的 超级 计算 机 排行 (Top500) 统计 数据 显示 ， 目 前 


e| 


上 升 趋势 。 最 


世界 上 最 快 的 超级 计算 机 含有 的 处 理 器 


核 数 已 达到 10 万 级 别 呈 。 按 照 当 前 的 技术 趋势 发 展 ， 下 一 代 王 级 计算 机 的 规模 将 突破 100 


万 个 核 站 。 在 构建 下 一 代 超级 计算 机 的 同时 ， 系 统 的 可 靠 性 问题 将 越 来 越 突出 


o 


一 方面 , 随 着 系统 规模 的 增 大 , 系统 的 平均 中 断 间隔 时 间 Cmean-time-to-interrupt, MTTD 


越 来 越 短 。 卡 内 基 梅 隆 大 学 的 吉普 森 (Garth Gibson) 等 人 基于 对 洛斯 阿拉 莫 


斯 国家 实验 室 


(Los Alamos National Laboratory) 十 年 内 超级 计算 机 失效 数据 的 分 析 ， 发 现 
统 的 出 错 频率 正比 于 其 中 包含 的 处 理 器 个 数 呈 T, anl 1 所 示 。 


高 时 间 


馈 级 计算 机 系 


平均 中 断 间 B 


卡 内 基 梅 隆 并 行 数字 实验 室 


图 1. 系统 的 平均 中 断 闻 隔 时 间 和 处 理 器 个 数 之 间 的 关系 一 


图 中 三 条 曲线 分 别 代表 每 个 插 板 上 处 理 器 核 数量 按照 18、24、30 个 月 翻 一 番 的 模型 增长 时 相应 的 不 同 


统计 预测 结果 (图 2 亦 是 如 此 ， 不 另行 注 明 ) 


男 一 方面 ， 高 性 能 应 用 在 数据 规模 、 计 算 复 杂 度 和 运行 时 间 上 依然 不 断 增长 。 对 于 很 多 


大 规模 科学 计算 来 说 , 高 性 能 计算 系统 的 平均 中 断 间隔 时 间 已 经 小 于 程序 的 执行 时 间 。 因 此 ， 
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必须 采用 高 效 的 容错 方式 ， 提 高 系 


统 的 可 靠 性 ， 以 满足 应 用 的 需要 。 


1.2 容错 技术 研究 现状 

传统 的 容错 技术 大 都 基于 检查 点 ， 即 周 
期 性 地 保存 系统 的 状态 ， 建 立 检查 点 并 写 入 
磁盘 ， 系 统 如 果 出 错 即 回 滚 到 上 个 检查 点 ， 。 E 
恢复 后 重新 开始 计算 。 但 是 ， 随 着 高 性 能 计 E 
算 机 系统 的 计算 能 力 和 磁盘 的 读 写 能 力 之 间 。 gm 


差距 的 不 断 增 大 ， 检 查 点 容错 方式 在 百 亿 亿 
次 (Exaflops) 规 模 下 容错 效率 难以 满足 要 求 。 


基于 计算 机 故障 数据 集中 (Compu 
Data Repository, CFD 


系统 级 的 检查 点 方式 对 用 户 透 
容错 方式 的 主要 开销 在 于 : 0) 节 


R) 统计 数据 的 分 析 ， 
吉普 森 等 人 预测 按照 现 有 的 技术 趋势 发 
去 ， 检 查 点 方式 在 未 来 超级 计算 机 系统 


ter Failure 


展 下 
PAUCIORES T EDT, du 
H, 但 当 系 统 规模 很 大 时 ， 带 来 的 开 和 


图 2. 吉普 森 等 人 对 检查 点 效率 的 预测 中 
图 2 所 示 。 
肖 是 惊人 的 。 检 查 点 


点 失效 需 回 深 ， 回 深 期 间 所 作 的 运算 作废 ; 


性 地 向 磁盘 写 入 检查 点 ， 而 外 存 


Cstop-and-wait) 的 容错 模式 ， 一 个 节点 失效 ， 全 系统 都 要 停 下 来 等 其 修复 。 


HHE (J. S. Plank) 等 人 提出 的 无 盘 检 查 点 (diskless checkpointing) 技 术 


的 内 存 代 蔡 低速 的 磁盘 来 存储 检查 
节点 。 无 盘 检查 点 技术 的 可 打 


效 恢复 技术 CABET recovery). P 978 gp gi jt 


展 性 优 于 检查 点 方式 ,但 仍然 需要 回 
步 ， 可 以 做 到 不 回 滚 。 尽 管 该 技术 


(2). 需 要 周期 


的 读 写 带宽 远 低 于 内 存 的 读 写 带 宽 ;，(3). 


| 于 采用 停 等 


点 ， 并 对 


各 个 


1 


^, EH 
才 算 节点 的 数据 进行 编码 ， 存 入 额外 区 


滚 和 停 等 的 


销 。 算 法 失 


序 不 透明 且 不 具有 通 
求解 * UE PETSc 
需要 额外 的 时 间 保 存 检查 点 。 宛 余 


]fE, (H'Z 


uA sU NH. "HU ScaLapack^ '?', HPL 


对 应 用 程 
6d PCG 


中 的 线性 方程 组 迭代 求解 法 "等 。 算 法 失效 恢复 技术 最 大 上 
此 出 错 也 不 


数据 在 计算 过 程 中 被 同步 更 新 ， 因 


此 外 ， 由 于 元 余数 据 在 内 存 


， 该 方案 不 需要 读 写 低速 外 存 。 实 验 表明 ， 该 技术 的 怕 


于 传统 上 


个 进程 失效 ， 所 


程 


的 检查 点 技术 吕 2 和 无 盘 检 查 点 技术 ”。 
然而 ， 算 法 失效 恢复 技术 仍然 基于 


字 等 的 容错 模式 ， 即 在 程 


序 执行 过 程 中 ， 


的 优点 是 不 
需要 回 滚 。 
:能 要 优 


tHE 


即使 只 有 


有 运行 中 的 进 


都 要 停 下 来 等 待 失 效 进 程 数据 的 恢复 。 


(Amdahl 
很 大 程度 


究 一 种 非 停 


上 会 影响 程序 的 # 


Af 
^ 


行 效率 
的 、 应 用 


D 


H on 


zi Fre IER AL AC AR 


o 


向 。 它 所 面临 的 挑战 主要 有 : (1). 应 月 


技术 的 实施 造成 了 一 定 的 团 


难 ; (2). 


民 据 阿 姆 达 和 尔 
) 定律 ， 程 序 的 加 速 比 受 限于 程序 中 的 串 行 部 分 。 对 于 大 规模 系统 ， 


何等 模式 在 


普 策 略 成 为 未 来 容错 技术 发 展 的 一 个 新 方 


如 何 设 计 编 码 模式 以 保证 编 


昌 层 感知 失效 需要 对 应 用 的 算法 有 较 深 的 理解 ， 对 容错 


Ei 


码 的 高 效 和 数值 稳定 性 也 


pi 


一 个 待 解决 的 问题 ; (3). 非 停 等 的 容错 模式 对 容错 系统 的 支持 提 昌 


实现 的 容错 特性 大 都 基于 检查 点 方 
1.3 本 文 的 主要 工作 和 贡献 


式 ， 实 现 应 用 层 容错 需要 MPI 新 的 支持 。 


基于 对 算法 失效 恢复 技术 的 和 


”IBM 的 杰出 架构 设计 师 
£ Message Passing Interface, 


-种 基于 消息 传递 的 并 行程 序 设计 标准 


程序 执行 过 程 中 发 生 节 点 失效 ， 
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上 了 更 高 的 要 求 , MA MPI 


究 , 本 文 提出 了 一 种 新 型 高 效 的 算法 级 容错 方案 一 一 算法 
失效 热 奉 换 (ABFT hot-replacement) 方案 。 当 


该 方案 不 用 
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停 等 恢复 丢失 的 数据 ， 而 用 宛 余 数据 蔡 换 丢失 的 数据 ， 使 计算 能 立刻 继续 进行 下 去 。 在 程序 

执行 的 最 后 ， 正 确 结 果 可 以 由 蔡 换 后 得 到 的 中 间 结 果 经 过 一 个 简单 的 线性 变换 求 出 。 


为 了 验证 方案 的 正确 性 ， 我 们 基于 该 方案 并 结合 MPICH2 新 的 容错 特性 ， 实 现 了 容错 
的 HPL3， 并 评估 了 该 方案 的 性 能 。 实 验 结果 显示 ， 即 使 在 小 规模 下 ， 我 们 的 方案 相对 算法 
失效 恢复 技术 方案 也 有 明显 的 性 能 优势 。 


1.4 本 文 的 组 织 结构 


本 文 共 分 六 章 : 第 一 章 介 绍 了 本 文 的 研究 意义 和 容错 技术 的 研究 现状 ; 第 二 章 综 述 了 相 
关 工 作 ， 阐 述 了 算法 失效 恢复 技术 ， 并 简要 介绍 了 MPICH2 对 算法 级 容错 的 支持 ， 第 三 章 
提出 了 非 停 等 的 算法 失效 热 蔡 换 方案 并 讨论 了 处 理 多 次 失效 的 情况 ; 第 四 章 详细 说 明了 算法 
失效 热 奉 换 方 案 的 实现 细节 ; 第 五 章 评估 了 算法 失效 热 蔡 换 方案 的 性 能 并 验证 了 方案 的 正确 
性 ， 第 六 章 对 下 一 步 工作 进行 展望 。 


2 ”相关 工作 


本 章 先 介绍 算法 容错 的 基本 思想 , 在 此 基础 上 阐述 了 算法 失效 恢复 技术 的 容错 策略 ， 最 
后 讨论 了 实现 算法 级 容错 技术 需要 MPI 提供 哪些 支持 。 
2.1 算法 失效 恢复 技术 
算法 容错 (Algorithm Based Fault Tolerance, ABFTO "的 概念 由 黄 光 华 (音译 ，K.H. 
Huang ) 和 阿布 拉 罕 (J. A. Abraham) 于 1984 年 第 一 次 提出 。 当 时 是 应 用 在 大 规模 集成 电 
路 瞬 态 错误 的 检测 、 定 位 并 修正 等 。 算 法 容错 的 核心 思想 是 先 将 原始 数据 进行 编码 变换 ， 然 
后 重新 设计 算法 流程 使 得 元 余数 据 在 计算 过 程 中 被 同步 更 新 , 从 而 可 以 在 计算 中 检测 和 纠正 
错误 。 该 方案 并 不 是 通用 的 ,因为 并 不 是 所 有 的 应 用 都 能 使 得 元 余数 据 和 计算 数据 被 同步 更 
新 。 算 法 容错 技术 主要 是 针对 一 类 包含 特定 矩阵 运算 的 应 用 ， 如 矩阵 加 法 、 乘 法 、 内 积 、 
LU 分 解 以 及 转 置 运算 等 。 


算法 失效 恢复 技术 B5 ERTE CZ. Chen) 和 多 加 拉 (O. Dongarra) 等 在 算法 容错 
技术 基础 上 所 作 的 进一步 推进 ， 以 处 理 高 性 能 计算 应 用 中 的 节点 失效 问题 。 该 技术 将 计算 节 
点 上 的 数据 编码 (通常 是 做 见 余 和 ) 存储 在 额外 的 见 余 节点 上 ， 并 设计 并 行 算法 ， 使 得 见 余 
节点 和 计算 节点 上 的 数据 在 计算 过 程 中 同步 更 新 ， 从 而 实现 对 失效 节点 上 数据 的 恢复 。 


敌 虑 单 节点 失效 的 情况 。 由 于 在 节点 失效 发 生 之 前 ， 我 们 并 不 知道 哪个 节点 将 会 失效 ， 
内 此 一 套 容错 方案 必须 能 提供 恢复 任意 一 个 节点 上 数据 的 机 制 。 假定 有 n 个 计算 节点 。 每 个 
计算 节点 上 的 数据 为 Di, 见 余 节点 上 的 数据 为 E。 在 计算 过 程 中 , 各 节点 上 的 数据 满足 如 下 
关系 


D+D,+...+D,=E (1) 
TR dA Wi EX 疡 可 由 下 式 恢 复 
D; =E - (D, +--+ Dia + Dia t+ Dp) (2) 


然而 ， 在 实际 应 用 中 ， 这 种 元 余 和 关系 的 保持 并 不 是 固有 的 ， 而 是 需要 特定 的 设计 。 如 
何 设计 算法 使 得 元 余 和 关系 在 计算 过 程 中 可 以 保持 ， 也 是 研究 算法 容错 需要 解决 的 问题 。 


2.2 MPICH2 的 容错 特性 


3 High Performance Linpack， 高 性 能 Linpack 标准 测试 程序 ， 详 见 本 文 83.3.1 
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为 了 实现 算法 级 容错 技术 ，MPI 实现 必须 提供 一 套 机 制 ， 使 用 户 能 有 效 地 参与 容错 。 本 
文 的 实现 使 用 MPICH2-trunk-r7834 软件 包 ， 它 的 主要 的 容错 特性 有 : 


L 节点 失效 不 会 导致 整个 程序 终止 。 这 一 点 通过 在 mpirun 命令 运行 程序 时 加 入 
-disable-auto-cleanup 选项 可 以 保证 。 
2. 算法 级 容错 方案 依赖 底层 对 失效 的 检测 。 因 此 ，MPI 实现 必须 能 够 提供 一 套 机 制 ， 
使 得 进程 能 够 查询 哪些 节点 失效 。MPICH2 实现 对 MPI_COMM_WORLD 通信 子 新 增 
了 MPICH ATTR FAILED PROCESS 属性 。 进 程 可 以 通过 查询 该 属性 的 值 ， 来 获 
知 节点 失效 信息 。 
3. 包含 失效 节点 的 通信 操作 不 会 挂 起 。 大 量 的 测试 表明 ，MPICH2 已 能 做 到 这 一 点 。 
4. 受 失 效 节点 影响 的 通信 操作 会 返回 错误 码 , 主要 用 于 决定 消息 是 否 需 要 重 发 和 重 接 
收 。 需 要 说 明 的 是 ， 为 了 降低 无 失效 情况 下 集合 操作 的 开销 ，MPICH2 降低 了 对 集 
合 通 信 的 限制 。 比 如 包含 失效 进程 的 barrier (栅栏 ) 操作 并 不 能 保证 所 有 进程 
都 能 返回 错误 码 ; 包含 失效 进程 的 bcast (广播 ) 操作 也 不 能 保证 所 有 进程 都 正确 
地 收 到 了 消息 。 


需要 说 明 的 是 , MPICH2-trunk-r7834 不 支持 在 节点 失效 的 情况 下 动态 调整 通信 子 , 但 是 
最 新 版 本 的 MPICH2-1.4 可 以 做 到 这 一 点 。 在 本 文 的 实现 中 ， 通 信子 的 调整 需要 在 应 用 层 上 
实现 。 我 们 将 在 第 四 章 中 涉及 这 个 问题 。 


3 方案 设计 
本 章 提 出 了 一 种 新 型 高 效 的 算法 级 容错 技术 ， 探 讨 了 一 次 失效 和 多 次 失效 的 处 理 方案 ， 
最 后 针对 HPL 做 了 相应 的 容错 设计 。 


3.1 ZEE HALTE 
为 简单 起 见 ， 这 里 先 考 虑 一 次 失效 的 情况 。 假 定 在 计算 过 程 中 ， 计 算 节 点 i 上 的 数据 
Di 和 元 余 市 点 上 的 数据 五 满足 如 下 关系 
D+D,+...+D,=E (3) 
旦 节点 i 失效， 我 们 不 是 让 所 有 “活着 ”的 进程 停 下 来 等 待 失 效 进程 上 数据 的 恢复 ， 
而 是 用 元 余 节 点 替换 失效 节点 ， 使 计算 继续 进行 下 去 。 


从 全 局 的 角度 看 ， 发 生 失 效 前 ，n 个 计算 节点 上 的 数据 为 


~ 


D= (D, Dias Dis D;,,,…D,) (4) 
替换 后 变 为 
D'- (D,,…, Dia E, Distt: Da) (5) 
令 D'=DxT， 则 了 可 以 表示 成 一 个 mXz 的 和 矩阵， 如 下 所 示 : 
NE 
EN 
T= 
1 6 
br (6) 
1 1 


其中 ， 对 角 线 和 第 i 列 省 略 的 元 素 为 1， 其 余 为 0。 
从 (6) 可 以 看 出 ,了 是 一 个 非 奇 异 和 矩阵 。 如 果 对 数据 了 的 所 有 操作 均 是 线性 变换 (如 
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和 矩阵 的 LU 分 解 等 ;， 则 D'= DxT 的 关系 可 以 一 直 保 持 。 在 运算 的 最 后 ， 基 于 原始 数据 D 
的 正确 结果 可 以 由 一 个 基于 D' 的 中 间 解 求 出 。 这 个 过 程 实际 上 是 一 个 基于 了 的 线性 变换 。 


然而 ，D' = DxT 的 这 种 编码 关系 并 不 能 在 所 有 高 性 能 计算 应 用 中 都 保持 ， 但 在 一 类 包 


含 线性 变换 的 矩阵 运算 中 ， 如 矩阵 的 加 法 、 乘 法 、LU 分 解 、 内 积 和 转 置 等 ， 这 种 关系 可 以 
保持 。 


3.2 多 次 失效 处 理 


对 于 多 次 失效 的 情况 ,一 种 方案 是 使 用 多 级 见 余 。 但 对 于 下 一 代 高 性 能 系统 来 说 ,该 方 


案 并 不 能 有 效 地 解决 这 个 问题 ， 因 为 见 余 总 有 耗 尽 的 时 候 。 


新 的 元 余 节 点 上 。 重建 见 余 和 涉及 大 量 的 通信 操作 ， 需要 计算 节点 参与 。 为 此 我 们 提出 


了 


un 


另 一 个 新 的 方案 是 通过 后 台 加 速 重建 元 余 和 ， 即 对 替换 后 的 数据 进行 重新 编码 ,保存 在 


“后 台 加 速 重建 ” 就 是 使 计算 节点 尽早 地 从 重建 元 余 的 工作 中 “解放 ”出 来 ， 通 过 增加 


节点 或 网 络 在 后 台 加 速 重建 见 余 ， 并 使 见 余 节 点 能 尽快 “ 追 上 ”计算 节点 。 而 正确 结果 可 以 
通过 增加 若干 次 热 奉 换 后 计算 得 到 中 间 结 果 ， 再 多 次 迭代 变换 而 得 到 。 


3.3 针对 HPL 的 容错 设计 


3.3.1 HPL 概述 


图 3. HPL 计算 流程 示意 图 


Each process generates its local random matrix A 
for k= 0, 1; n 
calculate A = I? xU® and AP = IY x u(P ; 
broadcast I , I% and pivoting information right; 


perform row swaps and calculate UP? = I9! x AD^; 


update the trailing sub-matrix A® = A® — IY x u$? ; 


solve Ux - Lb to obtain x; 


Kl4. HPL 程序 的 伪 代 码 


HPL 是 TOP500 超级 计算 机 排名 所 用 的 基准 测试 程序 。 它 的 主要 算法 是 用 列 主 元 高 斯 消 


元 法 (Gaussian Elimination with Partial Pivoting ) 求 解 线 性 方程 组 Ax=)。 它 首先 计算 nX (n*1) 
阶 系 数 算 阵 [A|b] 的 LU 分 解 ， 得 到 [AIb] = [LL,U] Lb]。 然 后 解 方 程 组 Ux =L'b 求解 x， 其 中 
U 是 上 三 角 和 矩阵 , L 是 下 三 角 和 矩阵 , 见 图 3. 图 4 为 使 用 LU 分 解 算法 时 HPL 程序 的 伪 代 码 。 
更 多 信息 ， 请 参见 [6]。 


3.3.2 容错 设计 
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下 面 先 考 虑 一 次 节点 失效 的 情况 。 如 83.3.1 所 述 ，HPL 是 用 列 主 元 高 斯 消 元 法 求解 线性 
方程 组 


Ax-b (7) 


假定 进程 Pi 在 程序 运行 中 失效 ， 则 使 用 匈 余数 据 准 换 失效 数据 后 ， 线 性 方程 组 变 成 


A'y-b (8) 
在 程序 执行 的 最 后 ， 得 到 中 间 解 y。 由 于 列 主 元 高 斯 消去 法 只 涉及 线性 变换 ， 因 此 


A'-AxT (9) 
的 关系 在 程序 执行 过 程 中 可 以 一 直 保持 。 
Wr CD. (8) 和 (9)， 解 x 可 以 由 下 式 求 出 
X=Txy (10) 
假定 变换 矩阵 TT 具有 如 (6〉 所 示 的 形式 ， 则 将 (6) 代入 C100 可 得 


Xj 2yityj 1<j#i<n 
Xi — yi 


(11) 


上 式 可 以 看 出 ， 由 y 计算 x 的 代价 为 O(n)， 相 比 算法 失效 恢复 技术 处 理 单 节点 失效 
的 开销 O(n”) 大 大 降低 。 


对 于 多 次 失效 的 情况 ， 可 以 通过 友 代 | 
失效 的 变换 矩阵 为 五 ， 则 
X=TxTx:……T xy (12) 


在 J ， 由 于 HPL 使 用 二 维 的 块 循环 (block-cydlic〉 数 据 分 布 ， 矩 阵 的 编码 和 
变换 矩阵 会 更 复杂 ， 我 们 将 在 下 一 章 涉 及 这 些 内 容 。 


3.4 优点 


和 算法 失效 恢复 技术 相 比 ， 我 们 的 方案 有 如 下 优点 : 首先 ， 热 替换 策略 使 得 故障 瞬时 切 
换 ， 不 需要 停 等 恢复 失效 节点 ， 其 次 ， 由 于 变换 矩阵 T 是 一 个 非常 稀 玻 的 矩阵 ， 由 中 间 结 
果 计 算 最 终 解 的 开销 很 小 , 远 低 于 算法 失效 恢复 技术 恢复 失效 节点 上 数据 的 开销 。 正 是 基于 
以 上 两 点 ， 算 法 失效 热 蔡 换 方案 在 理论 上 性 能 要 优 于 算法 失效 恢复 技术 。 为 了 验证 方案 的 正 
确 性 ， 下 一 章 将 曾 述 把 算法 失效 热 奉 换 应 用 到 HPL 中 的 实现 细节 。 


4 ”方案 实现 


目前 ， 我 们 已 实现 使 用 算法 失效 热 区 方案 处 理 音节 点 失效 的 容错 的 HPL。 以 下 实现 
均 是 针对 单 节点 失效 的 情况 。 如 83.3.1 所 述 ，HPL 的 主体 部 分 是 一 系列 消 元 、 行 广播 和 更 新 
阶段 的 二 加 。 它 们 占据 了 HPL 总 执行 时 间 的 绝 大 部 分 。 我 们 的 工作 也 是 针对 这 段 时 间 的 容 
昔 ， 因 此 如 果 节 点 失效 发 生 在 这 段 时 间 之 外 ，HPL 的 所 有 进程 都 会 终止 


4.1 矩阵 编码 


矩阵 的 编码 使 用 了 和 引文 [4] 类 似 的 方案 。 在 HPL F, BENERE A 按照 块 循环 模式 分 布 
在 一 个 二 维 PXQ 的 进程 网 格 上 。 为 了 处 理 单 节 点 失效 , 我 们 新 增 了 P 个 进程 。 将 它们 和 原 


间 解 y RKE x HE n 次 失效 的 情况 ， 第 i 次 
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来 的 进程 一 起 组 成 一 个 新 的 (P+1) X 
Q 的 网 格 。 宛 余 的 P 个 进程 分 布 在 新 
网 格 的 第 Q+1 列 上 ， 存 储 前 Q 列 进 
程 数据 的 编码 。 编 码 信息 可 以 由 前 Q 
列 进程 的 局 部 数据 相 加 得 到 。 图 5 为 
二 维 进程 网 格 及 编码 数据 的 分 布 。 如 


格 加 入 元 余 进 程 后 ,组 成 如 图 5(b) 所 


示 的 新 的 进程 网 格 。 
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在 这 种 编码 模式 下 , 对 矩阵 U H 


(d) 
图 5. 二 维 


Po 
å M. im feite tee 
X H/T = = N 维 a 

ie mis a 


(e) 
进程 网 格 及 编码 矩阵 的 分 布 。 


Ej: (a) 原始 的 进程 网 格 ; (b) 包含 宛 余 进 程 的 网 格 ; Cc) 


“ 行 和 ”关系 可 以 在 计算 过 程 中 保 


P3 失效 被 替换 后 重 


寺 ， 即 在 每 次 更 新 阶段 完成 后 保 


组 的 进程 网 格 (d) 编码 矩阵 的 全 局 视图 ; 


(e) 编码 矩阵 的 视图 


4.2 失效 检测 和 热 蔡 换 


首先 , 我 们 给 出 优化 后 双 精 度 通 月 


明和 矩阵 乘法 CDGEMM, Double-precision General Matrix 
Multiply) 在 异 构 系 统 上 的 整体 性 能 。 性 能 对 比 的 基准 程序 对 失效 的 发 生 是 无 法 预测 的 ， 因 


此 ， 在 失效 发 生前 ， 我 们 不 知道 何 时 会 发 生 失 效 、 哪 个 节 
(在 每 个 阶段 之 后 ) 查 询 MPI COMM WORLD 的 MPICH_ATTR_FAILED_PROCESSES 得 到 。 


于 不 同 的 进程 完成 同一 


点 将 失效 。 这 些 信息 可 以 通过 定期 


阶段 的 时 间 不 一 致 ， 因 此 在 查询 之 前 需要 执行 一 个 栅栏 Carrier) 


操作 ， 以 保证 查询 结果 的 一 致 性 。 
如 果 在 某 一 个 阶段 后 发 现 有 


个 进程 失效 了 ， 则 所 有 “活着 ”的 进程 进入 一 个 统一 的 入 
口 使 用 算法 失效 热 蔡 换 方案 处 理 失效 ,即使 用 元 余 进 程 列 葵 换 失效 进程 列 , 使 计算 继续 进行 
F 


下 去 。 以 图 5(b) 的 进程 网 格 为 例 ， 假 设 进程 Ps 失效 ， 则 热 蔡 换 后 进程 网 格 如 图 5(c) 所 示 。 


这 里 的 热 蔡 换 并 不 是 物理 上 的 替换 , 而 是 通过 交换 进程 网 格 相 关 的 数据 结构 中 菜 些 成 员 


这 
变量 实现 的 。 它 不 包含 任何 数据 通信 ， 因 此 可 以 迅速 地 完成 。 
需要 说 明 的 是 ， 热 奉 换 只 能 发 4 


E 在 U 的“ 行 和 ”关系 保持 的 前 提 下 ， 即 在 更 新 阶段 完 


成 后 。 如 果 在 某 个 消 元 阶段 后 发 现 进程 失效 ， 则 剩余 “活着 ”的 进程 需要 完成 行 广播 和 更 新 
之 后 ， 才 能 进行 热 蔡 换 。 
另 一 个 问题 是 如 何 更 新 热 奉 换 后 的 通信 子 状态 。 通 信子 是 用 来 表示 一 组 “活着 ”的 进程 。 


写 了 两 个 宏 , 根据 处 到 


间 的 映射 。 
4.3 后 台 恢 复 


可 以 发 现 ， 热 蔡 换 之 后 ， 在 最 后 一 块 


于 MPICH2 暂时 不 能 如 
我 们 在 应 用 层 为 每 一 个 进程 指定 一 个 虚拟 的 序 。 进 程 2 


EpL 


) 态 地 调整 通信 子 ， 如 加 入 或 移 


除 某 些 进 程 等 。 为 了 解决 这 个 问题 ， 


间 使 用 虚拟 序 进行 通信 。 为 此 ,我 们 


网 格 的 状态 信息 实现 虚拟 序 和 进程 在 MPI_COMM_WORLD 中 的 序 之 


民 随 矩阵 更 新 完成 后 得 到 的 避 不 再 是 上 三 角 和 矩阵 。 


这 为 我 们 计算 Uy=L"b 求解 y 带 来 困难 。 一 个 解决 办 法 是 ， 对 于 已 经 分 解 过 的 数据 ， 我 们 不 
用 宛 余 数据 奉 换 它 ， 而 是 将 它 恢 复 在 相应 的 见 余 进程 上 。 


这 样 做 的 另 一 个 好 处 是 ， 这 些 数据 


不 是 立即 要 用 的 ， 而 是 在 最 后 的 回 代 环节 才 会 用 到 ， 因 此 这 些 数据 的 恢复 可 以 在 后 台 进 行 。 


我 们 使 用 非 阻 塞 的 点 对 点 通信 ， 


意 的 是 ， 随 着 计算 的 进行 ， 需 要 更 新 的 数据 量 在 不 断 减少 ， 


49 


将 恢复 所 需 的 通信 部 分 和 随后 更 新 阶段 的 计算 部 分 重 受 起 
来 。 对 于 恢复 数据 量 比较 大 的 情况 ,我 们 可 能 需要 将 后 台 恢 复 的 数据 分 成 若干 部 分 。 需 要 注 


》， 从 而 每 次 划分 出 的 通信 数据 量 也 


E 


应 越 来 越 少 。 


4.4 消息 的 故障 处 理 


上 述 方法 足以 处 理 消 元 和 更 
HPL 提供 的 6 种 行 广播 方 


殊 的 处 理 。 
在 广播 中 有 一 个 进程 失效 ， 则 会 
进程 Po 发 送 来 的 消息 给 进程 
已 失效 ， 但 P, 却 无 法 获知 该 信 


1l. 节点 失效 不 会 引起 参与 


E BAV 
程 中 的 进程 失效 ， 我 们 需要 一 套 健 ; 


新 型 高 效 的 算法 级 容错 技术 及 实现 


丝 的 消息 广播 机 制 。 
广播 的 任何 节点 挂 起 ; 


2. 要 么 所 有 节点 都 成 功 接 


本 节 我 们 针对 HPL 一 种 常用 的 广播 
increasing-2-ring-modified(2rinM)， 定 制 


壮 ” 的 广播 方式 。 


2rinM 方式 下 消息 传递 的 路 
程 被 分 成 两 组 : 进程 


2~(Q+1)/2- 
程 (Q+1)/2 为 源 节 点 顺 次 传递 消息 。 


收 到 消息 ， 要 么 都 返回 出 4 
方式 
[11 健 


图 6. 
径 如 图 6 所 示 。 即 首先 | 
1 为 一 


Ds 


组 ， 进 程 (Q+1/2~(Q-1) 为 另 一 


新 阶段 发 生 节点 失效 的 情况 。 对 于 行 广播 阶段 ,我 们 需要 特 
式 都 是 基于 消息 转发 (mess 
导致 那些 不 和 它 直 接 通信 的 进程 挂 
P，，Po RXT o Pi 可 以 通过 MPI Recv 的 返回 
上 一 级 节点 Pi 仍 “ 活 着 ”。 


它 应 满足 如 下 两 个 条 件 : 


age forwarding) 的。 如 果 
起 。 假 如 进程 Pi 转发 由 


XA XI Po 
因此 ， 对 于 广播 


过 


音信 号 error. 


2rinM 方式 下 消息 传递 路 径 
进程 0 传 给 进程 1, 剩 下 的 Q-1 进 


组 。 接 着 以 进程 2 和 进 


按照 消息 传输 的 时 间 先后 关系 ,将 图 6 
中 的 消息 传递 表示 成 树 状 如 图 7 所 示 。 我 ped 
们 为 每 个 非 根 节点 指定 一 个 父亲 节点 。 父 
节点 的 指定 需要 满足 两 个 条 件 ，(1). 父 节 e 
BEWARE, QU SERA l 
的 消息 传递 没有 直接 的 依赖 关系 。 父 子 
ieu T E t=5 
否 重 发 和 重 接收 消息 。 即 每 一 个 非 根 节 点 t=6 
将 返回 码 发 送 给 它 的 父 节 
aa 应 线 表 示 父子 关系 
需要 等 待 父 节 点 重 发 的 消息 。 对 于 一 个 父 A7 PM 方式 下 的 消息 传递 树 状 区 


节点 来 说 ， 它 接收 子 节点 的 返回 
按 图 中 所 示 的 方式 指定 父 节 


paf 


们 可 以 保证 
HUR ERTA 0 在 第 一 


的 消 
fU 


第 一 条 消 ， 


方案 验证 


5 


题 ， 进 行 了 三 组 实验 。 
lo 算法 失效 热 蔡 换 方案 全 


条 消息 传输 
县 的 节点 都 会 挂 起 为 了 解决 这 个 问题 
昌 传 输 成 功 后 ， 才 使 用 上 


述 机 制 。 


能 如 何 ? 


2. 算法 失效 热 替 换 方案 对 计算 精度 的 影响 如 何 ? 


3. 失效 时 刻 对 性 能 有 什么 影 


FA! 


啊 ? 
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对 单 节点 失效 而 言 ， 任 何 一 个 非 根 节 点 的 失效 都 不 影响 消 


ij 成 功 之 前 就 失效 了 呢 ? 如 此 ， 则 所 有 不 直接 接收 0 
, 我们 将 第 一 条 消息 的 传输 从 行 广播 


码 ， 并 判定 是 否 需要 向 子 节点 重 发 消息 。 以 图 7 为 例 ， 我们 
点 ,图 中 的 虚线 由 子 节 点 指向 相应 的 父 节 点 。 按 照 这 种 方法 , 我 


县 成 功 的 传递 。 


分 离开 来 。 


本 章 我 们 通过 实验 对 算法 失效 热 奉 换 方案 的 性 能 和 售 入 误差 进行 了 评估 。 针 对 如 下 问 
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前 两 组 实验 在 曙光 5000A 平台 上 开展 ， 共 使 用 16 个 节点 。 每 个 节点 包含 4 个 quad-core 
2.2GHz AMD Opteron 处 理 器 ， 共 享 64GB 内 存 。 节 点 之 间 由 和 干 光 以 太 网 相连 。 第 三 组 实验 
在 8 个 刀片 组 成 的 “ 超 龙 ”平台 上 开展 。 每 个 刀片 包含 10 个 Intel Xeon X5650 处 理 器 ， 共 
计 960 个 核 。 同 一 个 刀片 内 的 节点 由 Infiniband 相连 ， 而 两 个 刀片 之 间 由 一 根 Infiniband 相 
连 。 这 两 个 平台 上 的 节点 都 运行 Linux 操作 系统 。 实 验 中 使 用 的 MPICH2 软件 包 ; 
MPICH2-trunk-r7834。 所 有 的 计时 是 通过 调用 MPI_Wtime 函数 统计 的 。 


5.1 算法 级 容错 方案 性 能 的 比较 


[n 


3x1. D5000A 平台 上 的 实验 配置 表 2. HPL 的 执行 时 间 
Eden o 每 个 节点 上 | 

矩阵 阶 数 节点 数 eon PXQ HENA ERA WEM WE 

的 进程 数 

10,000 1 6 6X1 10,000 577.74 591.61 602.73 
20,000 1 16 4X4 20,000 1608.15 1677.14 1723.37 
30,000 D 16 4X8 30,000 2601.03 2791.12 2821.43 
40,000 4 16 16X2 40,000 3150.11 3358.38 3497.08 
50,000 12 16 16X12 50,000 | 3433.09 347926 3577.77 


60,000 16 16 16X16 60,000 4708.54 4722.44 4858.23 


第 一 组 实验 是 用 来 比较 两 种 不 同 

的 算法 级 容错 方案 的 性 能 。 我 们 将 算法 
效 恢 复 技术 和 算法 失效 热 蔡 换 方案 
分 别 集成 到 HPL 中 去 处 理 单 节点 失 
效 。 节 点 失效 是 通过 强行 终止 一 个 进程 
来 模拟 的 。 


L—] AHR 


在 本 组 实验 中 ， 随 机 和 矩阵 A 的 阶 
数 及 计算 节点 的 使 用 情况 见 表 1。 甜 阵 s 1x10 2x10^ 3x10^ 4x10" LE "WT 
的 阶 数 为 1 级 。 使 用 算法 失效 恢复 技 随机 和 矩阵 阶 数 


术 和 算法 失效 热 替 换 方案 处 理 单 节 点 

失效 和 无 失效 情况 下 HPL 的 执行 时 " 
v [ri] TEZE Z2 HJZr EI 

间 ， 如 表 2 所 示 。 两 种 方案 处 理 单 节点 Eis. BEDEASUSPSUTARISUTIS 

失效 相对 于 无 失效 情况 下 的 开销 如 图 8 所 示 。 从 表 2 可 看 出 ， 处 理 单 节点 失效 ,算法 失效 热 

替换 方案 与 算法 失效 恢复 技术 方案 相 比 ，HPL 的 总 执行 时 间 减 少 了 10-200 秒 。 这 部 分 时 间 

相当 无 失效 情况 下 HPL 总 执行 时 间 的 1%~5%。 两 种 方案 下 的 开销 除了 会 随 单个 进程 分 配 到 

的 数据 量 的 多 少 而 变化 ， 还 会 受 进程 和 处 理 器 核 之 间 的 映射 关系 影响 。 

5.2 算法 级 容错 方案 舍 入 误差 的 比较 

算法 级 容错 方式 通过 对 浮 点 数 进行 算术 编码 构造 宛 余 数据 , 引入 了 一 定 的 舍 入 误差 。 此 

外 , 算法 失效 热 替 换 使 用 宛 余数 据 蔡 换 失 效 数据 , 涉及 到 和 矩阵 变换 , 进一步 加 剧 了 舍 入 误差 。 

第 二 组 实验 正 是 为 了 衡量 该 方案 带 来 的 合 入 误差 问题 。 舍 入 误差 通过 检查 HPL 误差 检验 结 

果 得 到 ， 即 (其 中 N 是 矩阵 维 数 ，s 是 机 器 精度 ); 
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[Ax -b| 
edal, x [x] + bl. )xN 


(13) 


本 组 实验 使 用 的 数据 规模 和 节点 信息 同 
第 一 组 实验 相同 , 见 表 1。 图 9 为 使 用 算法 失 
效 热 蔡 换 和 算法 失效 恢复 技术 处 理 单 节 点 失 


效 以 及 无 失效 情况 下 的 HPL 误差 检验 结果 。 


新 型 高 效 的 算法 级 容错 技术 及 实现 


2 3 4 5 
PEILE E AB ER C10) 


可 以 看 出 ， 算 法 失效 恢复 技术 方案 引入 的 舍 KUNA KONEN 
. 不 同 容错 的 误差 比较 
入 误差 较 小 ， 而 算法 失效 热 替换 带 来 的 合 入 图 9 个 同 容错 方式 引起 的 交差 比较 
误差 大 致 是 无 失效 情况 下 的 2 倍 。 
5.3 不 同 失效 时 刻 对 热 蔡 换 方案 性 能 的 影响 
第 三 组 实验 是 为 了 评估 失效 时 刻 E. 
(timing) 对 算法 失效 热 替 换 方案 性 能 的 影 ELS, 
响 。 本 组 实验 是 在 “ 超 龙 1 号 ”平台 上 进行 T. 
的 。 我 们 使 用 了 其 中 的 75 个 节点 ， 共 计 900 Ezo 
个 核 。 我 们 在 每 个 核 上 启动 一 个 进程 ， 并 把 ”下 2 
这 900 个 进程 组 成 一 个 30X30 的 网 格 。 本 组 ^ 28 500 1000 1500 2000 2500 
实验 中 和 矩阵 阶 数 为 20.000， 失 效 时 刻 的 控制 samal 
A pé 尖 实现 。 
python 脚本 中 的 sleep 函数 实现 图 10。 失效 时 刻 对 性 能 的 影响 
实验 结果 如 图 10 所 示 。 可 以 看 出 , 在 计算 开始 1,000 s 后 失效 ，HPL 的 总 执行 时 间 和 急剧 
上 升 。 这 是 由 于 随 着 计算 的 进行 ,需要 后 台 恢复 的 数据 量 也 在 增加 。 当 数据 量 增加 到 一 定 程 
RE, 以 致 不 能 完全 被 随后 的 更 新 阶段 重 傅 起 来 时 ， 就 会 带 来 额外 的 开销 。 不 过 ,从 理论 上 讲 ， 
算法 失效 热 蔡 换 方案 下 带 来 的 最 大 开销 也 不 会 超过 算法 失效 恢复 技术 方案 。 
6 ”工作 展望 
下 一 步 工作 有 三 个 可 能 的 方向 
第 一 个 方向 是 设计 后 人 台 加 速 重建 元 余 和 的 E? | 
方案 ,以 处 理 多 次 节点 失效 的 情况 。 该 方案 最 大 Eis | 
的 难点 在 于 开销 问题 。 重 建 元 余 和 涉及 大 量 的 通 。 换 2 
信 ， 且 需要 计算 节点 参与 。 因 此 我 们 需要 设计 高 GE 1 
效 的 方案 使 得 计算 节点 能 尽 快 地 从 重建 区 余 和 和 ol ee 
的 工作 中 “解放 ”出 来 ， 并 使 元 余 节 点 能 尽快 地 失效 数目 
“ 追 上 ”计算 节点 。 另 个 问题 是 热 符 换 策 和 带 AA 
来 的 合 入 误差 问题 。 图 11 显示 了 售 入 误差 随 关 “图 世 ， SONVOECGORGRUORI AUR 
效 次 数 变化 的 情况 。 实 验 表明 ， 当 失效 次 数 超过 10 次 时 ， 计 算 结 果 往往 通 不 过 HPL 的 误差 
检验 。 选 择 更 具 数值 稳定 性 的 编码 方案 或 者 通过 经 验 值 校正 最 终结 果 可 能 成 为 我 们 以 后 的 工 
作 之 一 。 此 外 ， 多 次 失效 的 实现 ， 除 了 在 应 用 层 做 适当 的 改动 外 ， 还 依赖 MPI 实现 新 的 支 
持 ， 如 动态 地 调整 通信 子 等 。 
将 方案 应 用 到 更 大 规模 的 超级 计算 机 上 ， 实 现 更 完备 的 失效 处 理 是 我 们 第 二 个 研究 方 


向 。 此 外 ， 将 热 蔡 换 策略 扩展 到 更 多 的 高 性 外 
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昌 中 也 是 我 们 今后 要 研究 的 问题 
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